视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?近年来,以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力,能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步,表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是,Google 的最新研究指出,诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”,包括感知、建模和推理等更高层次能力。